Mostrar código
library(tidymodels)
library(dplyr)
library(ggplot2)
# Configurações para reprodutibilidade
set.seed(123)Olá, pessoal! Bom dia!
Hoje vamos desvendar um dos pacotes mais poderosos e versáteis no universo do R para quem trabalha com Ciência de Dados: o tidymodels. Se você já se aventurou em construir modelos preditivos, sabe que o processo pode ser um pouco… artesanal. O tidymodels chega para organizar essa bagunça e transformar a construção de modelos em algo mais intuitivo, padronizado e, claro, tidy!
tidymodels?Pense no tidymodels como uma coleção de pacotes que trabalham em conjunto para oferecer uma estrutura unificada e consistente para o machine learning em R. Assim como o tidyverse revolucionou a manipulação de dados, o tidymodels faz o mesmo para a modelagem. Ele segue a filosofia tidy do R, o que significa que as funções são projetadas para serem encadeadas, facilitando a leitura e a escrita do código.
Ele cobre todas as etapas do fluxo de trabalho de machine learning, desde a preparação dos dados até a avaliação do modelo, passando pela seleção de modelos e ajuste de hiperparâmetros.
tidymodels?tidymodels oferece uma interface unificada.dplyr e ggplot2.tidymodelsO tidymodels é composto por diversos pacotes que desempenham funções específicas. Os principais que você precisa conhecer são:
rsample: Para criar amostras de dados (treino/teste, validação cruzada).recipes: Para pré-processamento de dados (transformações, engenharia de features).parsnip: Para especificar e ajustar diferentes tipos de modelos (regressão linear, árvores, SVMs, etc.) com uma sintaxe consistente.tune: Para ajuste de hiperparâmetros de modelos.workflows: Para empacotar modelos e recipes em um único objeto.yardstick: Para medir o desempenho do modelo com diversas métricas.dials: Para gerenciar espaços de tuning de hiperparâmetros.Vamos construir um modelo de regressão para prever os valores do famoso conjunto de dados mtcars. Nosso objetivo será prever o consumo de combustível (mpg) com base em outras características do carro.
Primeiro, vamos carregar os pacotes necessários:
library(tidymodels)
library(dplyr)
library(ggplot2)
# Configurações para reprodutibilidade
set.seed(123)rsampleVamos dividir nossos dados em conjuntos de treino e teste.